01. 简介

简介

动态规划设置中,智能体完全了解表示环境特性的马尔可夫决策流程 (MDP)。(这比强化学习设置简单多了,在强化学习设置中,智能体一开始不知道环境如何决定状态和奖励,必须完全通过互动学习如何选择动作。)

这节课介绍了该教科书第 4 章(尤其是第 4.1-4.4 部分)的内容。